Google Books Ngram

提供者:刘唯

简介

Google在2005年开始Google Books Library Project项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至2012年,已完成超过520万本书,包含5千亿个单词。
Google Books Library Project与Google’s Partner Program共同组建成广为人知的Google Books.
Google对书籍的处理不仅是扫描,还进行了数字化与数据化,这样就巧妙地避开了大多版权问题。庞大数据库甚至孕育了一个新学科的成立。
Ngram就是借用这个庞大的数据库开发的小工具。Google Books Ngram提供了谷歌图书扫描并数字化的部分图书(占人类出版书籍的4%)的Ngram数据。你可以查询从1800年到现在,所有出版物中一个词汇出现的频率变化曲线。

地址

https://books.google.com/ngrams

使用说明

比如试一下influenza,发现在1920年、1930年、1960年出现了三个波峰。这与“1918大流感”、“亚洲流感”等历史事件吻合。
看一下全球气候,发现sea levels、atmospheric、global temperature这三个词的热度在近50年飞速增长。
再举一个例子,限定英文书籍数据库,搜索一位名为Marc Chagall的艺术家,是一条上升的曲线,知名度越来越高,是正常的。但是,德语书籍数据库中的曲线在19333-1945年出现了异常的低谷。这是因为Marc是犹太人,在特殊年代他的名字被和谐了。

Ngram源自计算机语言n-gram。
目前收录的语种包括但不限于:美式英语、英式英语、法语、德语、西班牙语、俄罗斯语、希伯来语、汉语。
Ngram Viewer收录的单词或短语需满足一项要求:该词或短语在某年出版超过40本书中出现过,才会有该年该词的数据点。
数据进行了标准化处理来削弱某些年份某些书印数过多对结果的影响。

相关论文

[1]Martin Ravallion. The Two Poverty Enlightenments: Historical Insights from Digitized Books Spanning Three Centuries[J]. Poverty & Public Policy,2011,3(2).
[2]Szymon Grabowski,Jakub Swacha. Google Books Ngrams Recompressed and Searchable[J]. Foundations of Computing and Decision Sciences,2012,37(4).
[3]Vladimir Ivanov. Extracting Frame-Like Structures from Google Books NGram Dataset[M].Springer International Publishing:2014-06-15.
[4]Pierre A. Morgon. Sustainable Development for the Health-Care Industry: Setting the Stage[M].Springer International Publishing:2015-06-15.
[5]Daniel Rex Richards. The content of historical books as an indicator of past interest in environmental issues[J]. Biodiversity and Conservation,2013,22(12).
[6]Bates, Mary Ellen. Ngrams, Anyone?[J]. Online,2011,35(4).
[7]KEHE, JASON. We Are What We Write[J]. Wired,2013,21(12).
[8]Twenge Jean M,Campbell W Keith,Gentile Brittany. Increases in individualistic words and phrases in American books, 1960-2008.[J]. PL o S One,2012,7(7).
[9]Marc Egnal. Evolution of the Novel in the United States[J]. Social Science History,2013,37(2).
[10]Christiaan H Vinkers,Joeri K Tijdink,Willem M Otte. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis[J]. BMJ,2015,351(dec14 13).
[11]Vinkers Christiaan H,Tijdink Joeri K,Otte Willem M. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis[J]. BMJ,2015,351(dec14 13).